Материалы по тегу: google cloud platform

27.05.2024 [23:27], Александр Бенедичук

Google Cloud полностью взяла на себя вину за скандальное удаление облака пенсионного фонда UniSuper

Ранее в этом месяце Google Cloud по ошибке удалила учётную запись австралийского пенсионного фонда UniSuper. После восстановления работоспособности систем UniSuper и завершения внутренней проверки компания опубликовала информацию, призванную прояснить характер инцидента.

В соответствии с отчётом, инцидент затронул только и исключительно одного клиента, только один его сервис Google Cloud VMware Engine (GCVE) и только в одном облачном регионе из двух, используемых компанией UniSuper. Резервные копии данных клиента, хранящиеся в Google Cloud Storage (GCS) в том же регионе не пострадали.

По данным Google, во время первоначального развертывания частного облака для клиента в 2023 году операторы Google Cloud случайно неправильно настроили сервис GCVE, оставив поле неназванного параметра пустым. Это привело к непреднамеренному и непредсказуемому результату: частное облако UniSuper было автоматически удалено по истечении одного года (срок жизни по умолчанию), причём без уведомления о событии кого бы то ни было.

 Источник изображения: Google

Источник изображения: Google

Восстановление GCVE, конфигурации сети, систем безопасности, приложений и данных потребовало от команды UniSuper и Google нескольких дней работы в режиме 24×7. Google Cloud предприняла ряд мер для исключения подобных инцидентов в будущем, в том числе проверку вручную всех GCVE-развёртываний других клиентов. Кроме того, теперь процесс создания GCVE полностью автоматизирован и не требует участия живых операторов даже при формировании нестандартных конфигураций.

Однако необычно долгое восстановление сервиса и произошедший спустя неделю после инцидента с UniSuper похожий, а возможно и связанный с описанной историей, сбой в работе Google Cloud ставит под сомнение надёжность облачной платформы в целом, а также в очередной раз показывает, насколько хрупка и уязвима ИТ-инфраструктура и насколько велико значение человеческого фактора.

Постоянный URL: http://servernews.ru/1105487
22.05.2024 [21:45], Руслан Авдеев

Google обогнала AMD на рынке процессоров для ЦОД и вот-вот догонит Intel

В прошлом месяце компания Google анонсировала долгожданный серверный CPU на архитектуре Arm. Впрочем, как сообщает The Register, она уже оказалась третьей на рынке процессоров для ЦОД (сюда входят не только CPU, но и GPU, TPU и иные ускорители). Согласно отчёту TechInsights, компания теперь уступает только NVIDIA и Intel и давно обогнала AMD.

 Источник изображения: Google

Источник изображения: Google

Как и другие крупные облачные операторы, IT-гигант выпускает собственные чипы TPU, шестое поколение которых было представлено на прошлой неделе. Хотя на сторону их не продают, компания заказывает огромные партии TPU для оснащения собственных ЦОД — только в прошлом году речь шла о 2 млн штук. Ключевым партнёром Google в создании кастомного «кремния» является Broadcom.

Поставки TPU нарастают с каждым поколением, следуя за ростом самой компании. После премьеры TPU v4 в 2021 году в связи с развитием больших языковых моделей (LLM) объём полупроводникового бизнеса Google значительно вырос. TPU применяются компанией для внутренних задач, а ускорители NVIDIA — для облака. В TechInsights считают, что на сегодняшний день у Google имеется крупнейшая в отрасли база установленных ИИ-ускорителей и самая масштабная ИИ-инфраструктура.

 Источник изображения: TechInsights

Источник изображения: TechInsights

В прошлом году на серверным рынке произошла «масштабная коррекция запасов» — гиперскейлеры увеличили срок службы оборудования, отложив замену серверов общего назначения и повысив капитальные затраты на ИИ-серверы и ускорители NVIDIA. Аналитики Omdia говорят о таких тенденциях на рынке что в прошлом, что в начале этого года. В TechInsights считают, что по итогам I квартала 2024 года Google сможет догнать или даже перегнать Intel по доле на этом рынке.

Конечно, Google — не единственная облачная компания, разрабатывающая собственные чипы. Microsoft работает над серверным CPU Azure Cobalt и ИИ-ускорителями Maia 100. AWS и вовсе годами использует собственные Arm-процессоры Graviton и ИИ-ускорители серий Trainium и Inferentia. В прошлогоднем докладе Bernstein Research сообщалось, что архитектуру Arm используют уже около 10 % серверов по всему миру, а более 50 % из них внедряется AWS. Softbank в начале 2023 года говорила о том, что Arm захватила 5 % облачного рынка.

 Источник изображения: TechInsights

Источник изображения: TechInsights

Впрочем, с появлением процессоров TPU V5e и TPU V5p решения Google будут использоваться всё шире из-за «взрывного роста» больших языковых моделей вроде Gemini. В 2024 году у Google появится Arm-процессор Axion. И его внедрение, по мнению TechInsights, будет происходить намного быстрее, чем Graviton, поскольку у Google уже имеется программная инфраструктура для такого чипа. Всё это необходимо компании, чтобы идти в ногу с AWS, Microsoft и, в меньшей степени, Alibaba. При этом в докладе упоминается, что рынок полупроводников для ЦОД быстро меняется — раньше на нём доминировала Intel с архитектурой x86. Теперь его структура определяется потребностями ИИ-систем.

Постоянный URL: http://servernews.ru/1105235
20.05.2024 [13:50], Руслан Авдеев

Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась

Прошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов.

Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:

  • новые инстансы не имели сетевого подключения;
  • перенесённые/перезапущенные виртуальные машины потеряли сетевое подключение;
  • конфигурации виртуальных сетей (брандмауэров и т.п.) обновить не удалось;
  • частичная потеря пакетов для отдельных сетевых потоков VPC (Virtual Private Cloud) в регионах us-central1 и us-east1;
  • невозможность выделения портов (DPA) в Cloud NAT;
  • сбои при создании новых узлов и пулов GKE (Google Kubernetes Engine).

Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США.

 Источник изображения: NOAA/unsplash.com

Источник изображения: NOAA/unsplash.com

В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.

Постоянный URL: http://servernews.ru/1105075
03.02.2024 [23:45], Владимир Мироненко

В 2023 году Alphabet сэкономил $3,9 млрд, продлив срок службы серверов, но увеличил расходы на ИИ-инфраструктуру

Холдинг Alphabet сообщил результаты работы в IV квартале и 2023 году, завершившемся 31 декабря. Выручка облачного подразделения Google Cloud составила около $9,2 млрд, увеличившись год к году на 25,66 %. Что примечательно, подразделение сработало с операционной прибылью в размере $864 млн, в то время годом ранее у него были убытки в $186 млн.

Выручка всего Alphabet в IV квартале составила $86,31 млрд по сравнению с $76,048 млрд годом ранее. Выручка за весь 2023 год — $307,394 млрд, что значительно превышает результат 2022 года, равный $282,836 млрд. Чистая прибыль холдинга выросла в 2023 году до $73,795 млрд с $59,972 млрд годом ранее, отчасти благодаря решению компании продлить срок службы серверов и сетевого оборудования.

Alphabet впервые продлил срок службы своего оборудования в 2021 году, увеличив продолжительность работы серверов с трёх до четырёх лет, а сетевого оборудования — с четырёх до пяти. В 2023 году Alphabet вновь продлил срок эксплуатации оборудования, на этот раз — до шести лет. Благодаря этому только в IV квартале 2023 года расходы компании на амортизацию оборудования упали на $983 млн, а чистая прибыль увеличилась на $765 млн. За весь год амортизация оборудования Alphabet снизилась на $3,9 млрд, а чистая прибыль увеличилась на $3 млрд.

 Изображение: Google

Изображение: Google

При этом компания вложила значительные средства в новую инфраструктуру. В IV квартале общие капитальные затраты составили $11 млрд, что, по словам президента и главного инвестиционного директора Alphabet и Google Рут Порат (Ruth Porat), было обусловлено «инвестициями в техническую инфраструктуру, причём самый крупный компонент — серверы, за которыми следуют ЦОД». В предыдущем квартале капзатраты составили $7,6 млрд. Резкое увеличение капзатрат обусловлено «перспективами создания уникальных приложений ИИ для пользователей, рекламодателей, разработчиков, облачных корпоративных клиентов и правительств во всем мире, а также возможностями долгосрочного роста, которые они предлагают».

Порат добавила, что компания будет придерживаться этой политики и в 2024 году. «Мы ожидаем, что капитальные затраты в 2024 году будут значительно больше, чем в 2023 году», — отметила она. Порат также подчеркнула, что фактором роста Google Cloud Platform (GCP) является ИИ. Гендиректор Сундар Пичаи (Sundar Pichai) заявил, что компания продолжит инвестировать в инфраструктуру, как в ЦОД, так и в вычислительную технику, чтобы поддержать рост возможностей ИИ-технологий.

 Изображение: Google

Изображение: Google

Подразделение Google Cloud снова стало самым быстрорастущим сегментом. После значительного замедления роста с +28 % год к году во II квартале до +22 % в III квартале рост облака вновь ускорился до +26 %. Более того, в этот раз ускорение темпов роста было сильнее, чем у AWS и Azure. Рост доходов от облачных технологий вновь ускорился на 4 п. п. Также резко выросла операционная маржа Google Cloud — последовательно на 6 п.п. до 9 %. Компания объяснила замедление темпов роста в III квартале проведением оптимизации рабочей нагрузки. В ходе нынешнего отчёта Сундар Пичаи сообщил, что этот вопрос «в основном был проработан».

Темпы роста Google Cloud по-прежнему опережают рынок: по оценкам Synergy Research Group, общемировой прирост рынка облаков составил +20 % в годовом исчислении до $74 млрд в IV квартале, ускорившись с 18 % в годовом исчислении в III квартале. Доминирует Amazon (31 % рынка), за ним следуют Microsoft (24 %) и Google (11 %). Большая тройка занимает 67 % рынка. Причём Microsoft и Google нарастили свои доли, а AWS — снизила.

Постоянный URL: http://servernews.ru/1099765
20.07.2022 [15:56], Владимир Мироненко

Аномальная жара привела к сбоям в лондонских дата-центрах Google и Oracle

Во вторник, 19 июля, в ЦОД Google Cloud Platform (GCP) в Лондоне произошёл сбой в системе охлаждения, в связи с чем несколько сервисов компании временно вышло из строя. В лондонском регионе облака Oracle тоже возникли проблемы с охлаждением оборудования ЦОД. Сбои произошли из-за рекордной жары в Великобритании — температура превысила +40°C. Некоторые операторы дата-центров были вынуждены принять нестандартные меры, начав обрызгивать водой внешние модули систем кондиционирования, установленные на крыше.

Отключение ряда сервисов Google произошло в 18:13 по местному времени (20:13 мск). В журнале статуса оборудования сбой описан как «связанный с охлаждением». Google заявила, что сбой затронул лишь небольшое количество клиентов. В частности, отключение коснулось сервисов Persistent Disk и Autoscaling. Хотя Google утверждает, что сбой продолжался до 22:00 BST (24:00 мск), в означенное время всё ещё поступали жалобы на ошибки в работе Persistent Disk.

 Изображение: pixabay.com / Gam-Ol

Изображение: pixabay.com / Gam-Ol

С подобными проблемами в Лондоне столкнулась и облачная служба Oracle. Проблемы с перегревом у неё начались примерно в 17:00 по местному времени (19:00 мск). Oracle ранее арендовала ресурсы в ЦОД Equinix в лондонском кампусе Слау, но сейчас не раскрывает местонахождение своих мощностей. «В результате несезонных температур в регионе возникла проблема с частью инфраструктуры охлаждения в центре обработки данных на юге Великобритании (в Лондоне), — говорится в сообщении компании. — Это привело к тому, что часть нашей сервисной инфраструктуры пришлось отключить, чтобы предотвратить неконтролируемые сбои оборудования».

Постоянный URL: http://servernews.ru/1070521
10.11.2021 [14:45], Руслан Авдеев

Google инвестирует $1 млрд в биржевую группу CME Exchange и станет её облачным провайдером

Крупнейшая в мире группа биржевых площадок Chicago Mercantile Exchange (CME Exchange) заключила с Google соглашение, согласно которому последняя инвестирует в финансовые сервисы $1 млрд. В обмен техногигант получит не только ценные бумаги, но и выгодный контракт на предоставление облачных сервисов.

CME Exchange построила собственные дата-центры в США, а в Европе пользуется услугами Equinix. Пять лет назад году главный ЦОД компании был продан CyrusOne за $130 млн с договором «обратной» аренды на 15 лет — здесь размещается основная торговая платформа CME Globex и другие сервисы. В 2018 году CyrusOne даже построила здесь телекоммуникационную вышку высотой порядка 100 м, на которой клиенты могут разместить свои антенны для организации прямой связи с платформой.

Теперь же CME Group планирует переместить всю свою IT-инфраструктуру в облако Google Cloud в несколько этапов. Как ожидается, партнёрство позволит CME Group быстрее предоставлять клиентам новые продукты и сервисы. Google получит конвертируемые привилегированные акции без права голоса и контракт на обслуживание CME Group в течение 10 лет — начиная с 2022 года.

Постоянный URL: http://servernews.ru/1053405
25.06.2021 [16:16], Владимир Агапов

Google обновила Transfer Appliance, облачную «флешку» на петабайт

Сервис Transfer Appliance, доступный в ряде регионов США, ЕС и Сингапуре, позволяет клиентам просто и безопасно перенести петабайты данных из их корпоративных ЦОД и других мест эксплуатации в Google Cloud. Сервис основан на одноимённой специализированной All-Flash СХД, которую клиент может запросить в Google Cloud Console, чтобы перенести на него свою информацию. На днях компания анонсировала новую версию Transfer Appliance.

Google Cloud проверяет потребности заказчика, такие как мощность и необходимая ёмкость, и отправляет полностью укомплектованное устройство, включая все необходимые кабели. Доступные для заказа ёмкости находятся в диапазоне от 40 до 300 Тбайт. Имеются также две базовые модификации Transfer Appliance: на 100 и 480 Тбайт. Благодаря встроенным средствам дедупликации и сжатия данных потенциально можно перенести до 1 Пбайт. Кроме того, предприятия могут выбрать вариант исполнения — для монтажа в стойку или автономное устройство.

Как только устройство прибывает к заказчику, его можно смонтировать как общий ресурс NFS и приступить к копированию данных. Затем устройство запечатывается для защиты от несанкционированного доступа при траспортировке и отправляется обратно Google. Перед переездом данные шифруются (AES-256), а клиент создаёт пароль и секретную фразу для их дешифровки. Это не только защищает информацию, но и позволяет соблюсти отраслевые стандарты ISO, SOC, PCI и HIPAA.

По прибытии устройства в Google специалисты компании осуществляют обратные операции, которые для краткости они называют «регидратацией». О её успешном завершении Google сообщает заказчику как правило в течении 1-2 недель. После миграции клиентам становятся доступны средства для анализа данных BigQuery и Vertex AI.

Google рекомендует предприятиям использовать сервис Transfer Appliance в тех случаях, когда для загрузки данных в облако через Интернет потребуется более недели, или когда необходимо перенести более 60 Тбайт данных. Ещё один вариант использования устройства — сбор данных в полевых условиях и на подвижных объектах, таких как корабли. По прибытии в порт их можно легко перенести в облако для последующей обработки или архивирования.

Следует отметить, что сервис особенно полезен в условиях недостаточной пропускной способности каналов передачи данных или отсутствия возможности подключения к Интернет. Несмотря на то, что данная концепция не нова и компании десятилетиями отправляли данные на физические устройства для архивирования и аварийного восстановления, она не утратила своей актуальности и сегодня. Аналогичные решения есть у всех крупных облачных провайдеров.

Постоянный URL: http://servernews.ru/1042819